Aвтоматическая обработка языка
Правильная ссылка на статью:
Жикулина К.П., Костромина В.В.
Вычислительная креативность генеративной сети Midjourney в полимодальном пространстве
// Litera.
2024. № 6.
С. 1-16.
DOI: 10.25136/2409-8698.2024.6.70890 EDN: COCFNP URL: https://nbpublish.com/library_read_article.php?id=70890
Читать статью
Результаты процедуры рецензирования статьи:
|
EDN: COCFNP
|
Аннотация:
В данной статье исследуется полимодальное пространство в области вычислительной креативности у нейронных сетей. Объектом нашего исследования является полимодальная среда, которая объединяет в себе ряды разнородных кодов для выражения общей идеи, а предметом – возможность создания полимодального цифрового искусства с помощью текстового и голосового промта в генеративной сети Midjourney. Цель исследования – доказать, что вычислительная креативность у машин может быть обнаружена и описана по результатам итераций в процессе создания изображений, что в свою очередь позволит говорить о сложной полимодальной системе как об отдельной цифровой категории полимодальности. Задачи, которые решались в рамках данного исследования: 1) обоснование использования термина полимодальный в контексте вычислительной креативности в цифровом искусстве нейронных сетей; 2) проведение серии тестов с генеративной сетью Midjourney для возможности описания вербально-визуального контента; 3) анализ и выведение алгоритма создания изображения в условиях суммаризации данных и трансформационной креативности. Нами был использован метод сплошной выборки при сборе языковых единиц по мере их встречаемости; контекстный анализ для систематического описания присутствующих вербальных и невербальных компонентах. Необходимо было провести эксперимент с генеративной сетью Midjourney для выявления закономерностей при создании графического пространства, а далее сравнить и сопоставить результаты итераций с оригинальным изображением. Научная новизна заключается в отсутствии исследований о полимодальном пространстве в контексте нейронных сетей и их генеративной способности. В ходе проведённого эксперимента нами были получены следующие результаты: термин «полимодальность» в контексте генеративной сети Midjourney и её «цифрового искусства» обусловлен наличием трёх каналов: вербального, визуального и голосового (звукового); тесты показали, что способность нейронной сети к созданию изображений посредством промта находится на высоком уровне, однако прослеживаются грубые технические ошибки в системе, которые не позволяют пользователям в полной мере приблизиться к желаемому результату при генерации изображения; суммаризация данных позволяет говорить о наличии черт вычислительной креативности у генеративных сетей, так как в ходе создания изображения возникают новые образы (идеи), ранее не предполагаемые пользователем.
Ключевые слова:
искусственный интеллект, вычислительная креативность, трансформационная креативность, нейронная сеть, Миджорни, полимодальное пространство, полимодальный текст, итерация, промт, суммаризация
Abstract:
This article deals with the polymodal space in the field of computational creativity in neural networks. The object of research is a polymodal environment that integrates a series of heterogeneous codes to express a common idea, and the subject is the possibility of creating polymodal digital art using text and voice prompts in the generative network Midjourney. The aim of the study is to prove that computational creativity can be detected and described based on the results of iterations in the process of creating images, which in turn will allow us to talk about a complex polymodal system as a separate digital category of polymodality. We used the continuous sampling method when collecting linguistic units as they occur in the analysis process; contextual analysis for the systematic identification and description of the verbal and non-verbal contexts. It was necessary to conduct an experiment with the generative network Midjourney to identify patterns in the creation of a graphic space through text and voice data input, and then compare and contrast the results of iterations with the original image. The scientific novelty consists in the lack of research on the polymodal space in the context of neural networks and their generative ability. During the experiment, we obtained the following results: the term ‘polymodality’ in the context of the generative network Midjourney and its ‘digital art’ is due to the presence of three channels: verbal, visual and voice; tests have shown that the ability of the neural network to create images through prompt is at a high level, however, there are rough technical errors that do not allow users to fully approach the desired result when they generate an image; the summarization of the data allows us to talk about the presence of features of computational creativity in generative networks.
Keywords:
Midjourney, neural network, transformational creativity, computational creativity, artificial intelligence, polymodal space, polymodal text, iteration, prompt, summarization